我们考虑通过序贯决策设置中的示范教学问题。特别是,我们研究如何在演示中设计一个个性化课程,以加快学习者的融合。我们为两种流行的学习者型号提供统一的课程策略:最大因果熵逆加强学习(MaxEnt-IRL)和交叉熵行为克隆(Crossent-BC)。我们的统一战略基于难度评分计算的概念来突出排名。教师的最佳政策和学习者的当前政策。与现有技术相比,我们的战略不需要访问学习者的内部动态,并且在轻度技术条件下仍然享有类似的收敛保证。此外,我们将我们的课程策略调整到使用特定于任务特定难度分数的教师代理的环境。在合成车驾驶环境和基于导航环境的实验证明了我们课程策略的有效性。
translated by 谷歌翻译